大人群基因组助力群体遗传知识发现与应用转化——大人群基因组研究鼎峰论坛·精华回顾
近年来,在基因组学和测序技术的飞速发展的背景下,大人群队列在精准医疗领域的重要价值开始逐步凸显,日益成为国际生命科学与疾病领域的前沿与焦点。2022年8月20日-21日,由深圳华大智造科技股份有限公司主办,深圳华大生命科学研究院、深圳华大基因股份有限公司协办的群“测”聚力,乘“序”追因——大人群基因组研究鼎峰论坛顺利举行。论坛首日聚焦于群体遗传学与大人群基因组的学术与产业前沿,来自国内各大科研院所和产业界的专家齐聚一堂,为线上、线下参会同道带来了精彩的学术分享与热烈深入的讨论。
精准医学、人工智能与核酸药物
生物大数据具有多尺度、高维度、异质化、在时空上动态变化、非线性、双色(多色)等特征,给数据处理带来了一系列挑战。陈润生院士认为,实现生物大数据助力精准医学的三个关键在于:①分子组学的搜集与整合;②表型组学的表征与定量;③微观与宏观的偶联破解生命与疾病的“黑箱系统”。人工智能在其中可以发挥重要的作用。陈润生院士提出,人工智能的发展有三个重要因素:模型、数据、算力,其中数据至关重要,如何建立共识,如何实现标准化是亟待解决的问题。而在模型层面,现有的神经网络算法距离真实的大脑仍有差距,尚有进步的空间。
陈润生院士随后对核酸疫苗、核酸药物的前沿发展进行了总结和阐述。RNA药物是近年来兴起的“第三代药物”,有着若干优势:①不会干扰基因组的稳定性;②成分简单,在靶点确定后,RNA药物的发现和设计较为容易;③RNA合成较为简便。RNA药物的修饰能够提高RNA的稳定性,提高翻译效率,降低免疫原性并增强递送。与RNA疫苗相似,递送系统在RNA药物中也发挥着至关重要的作用,是学术和产业界目前最核心的问题。陈润生院士提出,占人类基因组97%的广大区域尚未纳入当前药物研发的范畴,研究证明这些区域和人类生长、发育、疾病密切相关,非编码核酸药物是尚未开发的原创药物的巨大源头。
数据安全法与人类遗传资源管理
何跃鹰 教授
国家互联网应急中心中国十万人基因组计划与基因组大数据解析关键技术
刘博 教授
哈尔滨工业大学从基因组1.0时代绘制人类基因组序列图谱,到基因组2.0时代绘制本民族的基因组变异图谱,再到基因组3.0时代建立起基因组变异与疾病的关系,各国基因组计划的规模越来越大,精度越来越高。哈尔滨工业大学的刘博教授介绍,中国十万人基因组计划目前完成了31064个样本的全基因组测序,绘制了“万分之一精度”的中国人基因组变异图谱,发现了2.9亿个中国人基因组变异,超过1.1亿个新变异,填补了6.1万个中国人群常见SNV变异等,与国际同类基因组计划相比,测序规模大、新发现变异多、图谱精度高。与此同时,研究团队建立了可视化基因组注释系统;构建了中国人参考基因组面板(Reference Panel),在推断东亚人群上具有更低的推断错误率;建立跨尺度表型网络图谱,为一系列常见疾病建立个性化健康评价与预测模型。在中国十万人基因组建设过程中,建立了全链条的大规模基因组计划工程技术体系;研发了自主可控的基因组数据解析核心算法,包括二代测序片段比对算法deBGA、三代转录组长序列片段比对算法deSALT、三代测序结构变异检测算法cuteSV等,在国际上取得了良好的反响。刘博教授最后感谢了华大智造在大规模基因测序平台方面提供的支持,为中国十万人基因组计划的顺利实施提供了良好的保障。
华大智造核心工具赋能大人群基因组研究
蒋慧 博士
华大智造首席运营官蒋慧博士指出,在独有DNBSEQ核心技术等多层面技术的支撑下,华大智造搭建起自主可控的源头性核心技术体系,赋能大人群基因组研究。蒋慧博士随后详细介绍了DNBSEQ测序平台的性能和技术细节。DNBSEQ平台实现了高中低通量全覆盖,其中DNBSEQ-T7超高通量测序仪每年可产出>10000个高质量高深度WGS测序数据,已经应用于多个大人群基因组研究之中;更大规模的DNBSEQ-T10x4RS在产出通量、测序单价方面更是达到了极致。
MGIGLab-L全自动文库制备生产线为测序文库构建提供了标准、稳定的解决方案。MGIClab-LT系列超低温自动化生物样本库能够为生物样本标准化、自动化保存提供助力。在计算层面,ZTRON基因数据中心一体机能够实现海量基因数据管理,并在信息化管理系统中发挥作用。
核心工具的研究最终目的是服务于大人群基因组研究,蒋慧博士指出,华大智造的核心工具已经应用于包括中国代谢解析计划ChinaMAP、中国十万人基因组计划、十万例罕见病患者全基因组测序计划等中国乃至全球多个大型研究中,基于DNBSEQ测序平台累计产出基因组数据超过100PB。蒋慧博士最后总结了大人群基因组研究新的机遇与挑战,包括:①从“读”到“存读算用”;②从基因组到多组学;③从数据产出到数据挖掘与共享;④从科研到临床应用。在创新工具的帮助下,人人基因组时代相信会很快到来。
基于大人群队列的复杂疾病易感基因定位
杨剑 教授
西湖大学基于基因组大数据的中国人群蛋白截断变异图谱绘制与研究
金鑫 研究员
深圳华大生命科学研究院金鑫研究员介绍了蛋白截断变异(protein-truncating variants, PTV)的定义,PTV有重要的生物学与临床意义,有着潜在的临床价值。团队基于2万人群的银屑病研究课题的基因组学测序数据,开展中国人群PTV研究,关注PTV有害性分析及其在基因位置上的分布特征。部分PTV存在着显著的人群差异,如FUT2在欧美人群、非洲人群频率显著高于中国人群,EFCAB13则反之。研究团队基于上述数据和成果,绘制了首个中国人群蛋白截断变异图谱,共检测了8720个PTVs,其中77%是新发现的,预计88%是有害的。金鑫研究员认为,时空组学技术将带来生命科学领域的第三次科技革命,借助单细胞/时空组学技术描绘生命的分子机全景图谱,有望为生命科学与疾病研究开拓更多可能。华大将持续开发自主可控的生命科学核心工具,做好底层支撑,实现合作共赢。
人类遗传资源法规要求与管理实践
李根平 研究员
原北京市实验动物管理办公室(北京市人类遗传资源管理办公室)主任大型福建队列之精细化福清队列建设
叶为民 教授
福建医科大学圆桌论坛
针对大人群队列研究实施的要点和挑战,多位嘉宾也表达了自己的观点,刘功姝教授表示,目前开展的天津市母婴出生队列已经有了一些基础,希望未来能拓展到国家层面的母婴出生队列。刘教授强调,随访是队列研究的一个极为重要的因素,关系到队列的质量和可持续发展。袁慧军教授指出,相较于我国人口的规模,基因数据和组学数据采集的速度仍然较慢;表型数据的收集维度应当更加丰富、全面。袁教授认为,样本“可追溯”机制的建立能够帮助解决数据不完整的问题。
此外,如何在确保数据安全的同时推进各个大人群队列之间的合作,也是讨论嘉宾关注的话题,各位嘉宾认为,跨地区、跨学科团队间的合作是大人群基因组研究持续发展,不断向临床转化的重要因素。
各位嘉宾展望了“未来5-10年中国大人群基因组研究的前景”。袁慧军教授表示,今年可能会成为“人人基因组时代”的元年,华大智造的测序平台在测序成本上有全球性的优势,数据质量过硬。在华大智造独特的测序技术和测序平台的支持下,未来中国百万级罕见病患者全基因组数据的积累将为生物医药领域的创新发展提供基础性的支撑。杨剑教授提出,是什么在驱动我们做大人群的基因测序?这可能是未来发展最核心的一个问题,基因测序如何能够影响到个体的生活,直接关系着是否真的能实现大尺度的、大人群的数据积累。此外,精准、低成本的长读长测序也是未来值得关注的发展方向。刘功姝教授认为,未来5-10年,中国人群的队列研究可能会走向两极分化,团队的合作与数据共享影响着一个队列未来的发展前景。沈侠教授指出,中国有数量丰富的人类遗传资源,也有很好的测序技术,希望将来能够真正基于中国人群数据诞生有世界影响力的研究,提高国际上我国人类遗传研究的显示度。